连载(15):统计图形艺术——回归模型诊断
中国近代启蒙思想家、翻译家严复(1854-1921)提出,翻译力求信、达、雅。统计图形,亦须如此。信(faithfulness),指意义不悖原文,要准确传达数据原有之义,不偏离,不遗漏,也不要随意增减意思;达(expressiveness),指不拘泥于固有形式,译力求通顺、易懂、明白;雅(elegance),指选用的图形、样式要得体,力求简明、优雅。
生物医学研究产生的数据纷繁复杂,合适的统计图形能够准确、简明、优雅的勾勒出数据背后之意,消除医学-数据-内涵之间的障碍,准确传递生物医学研究成果,这就是医学统计图形的魅力。
历经半年准备,我们图形小组将按照数据可视化、统计可视化、集成可视化三个模块,连载推送医学研究中常用统计图形之背景、场景、拓展、要点。文稿有多处不足,请广大读者斧正。尚有多处示例待优化,欢迎提供素材。
回归模型诊断Regression Model Diagnostics
残差是否服从正态分布,方差是否随X的变化而变;
否存在异常值(离群点、高杠杆点、强影响点);
选择的线性模型是否合适;
自变量间是否存在多重共线性的问题。
适用于线性模型的诊断,亦可扩展用于广义线性模型。
残差图,是以残差为纵坐标,其他合适的值为横坐标的散点图,以反映残差的值域分布和残差随着横坐标变量变化之趋势。
例: 本例以拟合的预测值为横轴,残差为纵轴来检验模型假设的合理性。理论上所有残差应在0上下随机波动,且变化幅度应在一定范围内。如图所示,本例建立的回归模型效果不佳,应考虑其他方法进行改进(图 15.1)。
图15.1:回归模型残差诊断图
理论上,标准化后的残差应服从标准正态分布,本例使用QQ图来检验残差的正态性,如图所示,代表残差分位数的散点基本集中于对角线上,说明其近似服从正态分布(图 15.2),反之,若不是如此,就应考虑是否违反了正态性的假设。
图15.2:回归模型残差诊断图之QQ图
理论上,预测模型残差的方差是一个常数。可通过绘制以拟合值为x轴,以开方的标准化残差为y轴的散点图,若方差齐,则散点图的拟合线应为水平线,或在一定水平波动,否则提示方差不齐(图 15.3)。
图15.3:残差方差齐性诊断图
残差分析可用来检测离群点,标准化残差偏离超过2的(理论上有约5%的概率),需注意;超过2.5的需格外注意(理论上有1%的机会);而超过3的,需要深入检查数据的异常情况(理论上只有0.0027的机会)。由图可见(图 15.4),有两个潜在异常数据需要检查。另,可用outlierTest(lmfit)
函数来检验异常值。
例: 本例以拟合的预测值为横轴,残差为纵轴来检验模型假设的合理性。理论上所有残差应在0上下随机波动,且变化幅度应在一定范围内。如图所示,本例建立的回归模型效果不佳,应考虑其他方法进行改进(图 15.4)。
图15.4:回归模型残差诊断
高杠杆点,通常指自变量中出现的异常点,一般认为杠杆值大于(p+1)/n的值,可能为高杠杆值,n为样本量,p为自变量个数。帽子统计量也可用于判断高杠杆点,帽子值可用hatvalues
函数计算。
为了评估各数据点对回归结果的影响,可以采用弃一法来逐一拟合n次回归,有和无该点所致预测值(yhat)的变化,体现各点对回归模型的影响的强弱 [1](图 15.5)。
图15.5:杠杆诊断图
强影响点,即对参数估计或预测有异常大的影响的数据点。若移除某一个强影响点,模型的参数会发生很大的变动,存在这样的点,会使模型的稳健性大打折扣(图 15.6)。
图15.6:强影响点诊断图
例:续上例,亦可估算各点的Cook距离。美国统计学家Ralph Dennis Cook于1977年提出Cook distance [2],其衡量的是由全部数据得到的回归系数与删去第i个观测值得到的回归系数之间的差异。距离越大者,可认为对模型的影响越大。距离超过4/(n-p-1)者,可认为该点对模型拟合有影响。其中n为样本量,p为自变量个数。可使用R包lindia
中的gg_cooksd
函数绘制,如图可见,可认为号码为193、204、179的小学数据对模型拟合有影响(图 15.7)。
图15.7:Cook距离诊断针板图
通过infIndexPlot()函数来绘制异常、杠杆、强影响等三个评价指标的棒棒糖图(图 15.8)。influence.measures()
函数可以输出诊断详情。
图15.8:异常点、杠杆和强影响等回归诊断结果
可绘制杠杆与Cook距离之间的关系图来综合分析异常点。如图所示,所加的辅助线为标准化残差等高线(图 15.9)。
图15.9:杠杆与Cook距离关系图
亦可将三者绘制于一副图中来检测强影响点。其中:x轴为杠杆值,y轴为标化后的残差,各气泡大小表示Cook距离。纵坐标超过2或者小于-2的点可能被认为是离群点,气泡很大的点可能是对模型参数的估计造成影响的强影响点。
图15.10:异常点、杠杆和强影响等
回归诊断结果融合图
与上图作用类似,纵坐标超过2或小于-2的点被视为离群点,横轴超过垂直虚线的点中可能存在高杠杆值,气泡越大表示越可能为强影响点。
图15.11:异常点、杠杆和强影响
等回归诊断结果融合图
应注意辨析离群点、高杠杆值点和强影响点。 强影响点并不一定是不好的,而是说如果某个点影响特别大,那么需要进一步调查,如判断是否需要对变量进行转换。 如果发现异常点,首先检查其是否由操作错误导致,如输入错误,测量错误等,如果是,那么直接删除。但是有时候异常点会提示重要的信息,因此如果异常点不是由操作错误导致,则需进一步的调查,不可简单删除了事。并且所有删除数据点的方法和理由都应该呈现在结果报告中。删除数据点后要与删除之前的模型作比较,看模型是否变得更好,并将两个模型都记录在结果中。
参考文献:
Everitt B. Book reviews : Chambers JM, hastie TJ eds 1992: Statisti cal models in s. California: Wadsworth and brooks/cole. ISBN 0 534 16765-9. 1992;1(2):220–1. Available from: https://journals.sagepub.com/doi/abs/10.1177/096228029200100208
Cook RD. Detection of influential observation in linear regression. 1977;19(1):15–8.
写作:魏永越*,张隆垚
排版:李 颖
审阅:陈 峰
欢迎供稿 | 敬请斧正
easyPlot小组 (easyplot@126.com)
责任作者 (weiyongyue@126.com)
Powered by 百步科技
连载(2):统计图形艺术——线图
连载(3):统计图形艺术——饼图
连载(4):统计图形艺术——直方图
连载(5):统计图形艺术——点图
连载(6):统计图形艺术——箱线图
连载(7):统计图形艺术——散点图
连载(8):统计图形艺术——热图
连载(9):统计图形艺术——三元图
连载(10):统计图形艺术——QQ图
连载(11):统计图形艺术——概率和统计分析
连载(12):统计图形艺术——曲线平滑
连载(13):统计图形艺术——线性回归
连载(14):统计图形艺术——非线性回归
统计图形艺术——“图形”英文词意辨析